Создание индексных файлов для программ пакета BLAST
В рабочей директории были созданы индексные файлы по геномам Salmonella typhimurium, Xanthomonas campestris, Pasteurella multocida.
Для решения данной задачи была выбрана программа из пакета BLAST - TBLASTN.
Таблица1
| Поиск гомологов YAHK_ECOLI | Геном S. typhimurium |
| Число находок с Е-value<0,001 | 9 |
| Характеристика лучшей находки: | |
| E-value находки | 1,00E-43 |
| AC соответствующей записи EMBL | AE008910 |
| координаты выравнивания(-ий) в записи EMBL | 15874 - 14879 (complete genome) |
| Координаты CDS в записи EMBL (если они есть) | complement(14864..15883) |
| AC UniProt в записи EMBL (если есть) | Q8ZK20 |
| Координаты CDS в записи EMBL (если они есть) | complement(14864..15883) |
| Секция генома | 214 |
| Ген | yjgB |
Процент идентичности с наилучше находкой оказался 32%. Процент достаточный для гомологии, тем более что данный белок, кодируемый CDS, по функции (putative alcohol dehydrogenase) похож на белок YAHK_ECOLI (Zinc-type alcohol dehydrogenase)
Таблица1
| Результат поиска по трем геномам | |
| Число находок с Е-value<0,001 | 15 |
| E-value AE008910 | 3,00E-43 |
| Общее число находок | 24 |
В результате поиска по трем геномам сразу вес находки AE008910 (yjgB) уменьшился (так как увеличилось число последовательностей белков, среди которых мы ищем гомологов). Наибольшей же находкой стала AE012096 (Xanthomonas campestris) с Е-value e-117 (Identities = 214/347 (61%)), можно считать большим гомологом, чем AE008910 : процент идентичности больше, а также данный ген кодирует белок уже с настоящей, а не мнимой (AE008910) функцией алкогольдегидрогеназы.
Был произведен поиск гомологов гена, кодирующего белок YAHK_ECOLI, в трёх геномах (Salmonella typhimurium, Xanthomonas campestris,Pasteurella multocida) программой BLASTN. В результате был найден предположительный гомолог AE012427 с E-value: 0.16 (самое лучшее выравнивание). .
>AE012427 AE008922 |AE012427| Xanthomonas campestris pv. campestris
str. ATCC 33913, section 335 of 460 of the complete
genome.
Length = 11105
Score = 36.2 bits (18), Expect = 0.16
Identities = 18/18 (100%)
Strand = Plus / Plus
Query: 574 aagctggcccacgcgatg 591
||||||||||||||||||
Sbjct: 9323 aagctggcccacgcgatg 9340
Вес всех находок очень маленький. Размер выравненных последовательностей также мал. Следовательно о гомологии говорить здесь очень трудно, то есть программа BLASTN в данном случае не подходит для поиска гомологов
Выравнивания
>AE008910 AE006468 |AE008910| Salmonella typhimurium LT2, section 214 of
220 of the complete genome.
Length = 20648
Score = 171 bits (433), Expect = 1e-43
Identities = 110/343 (32%), Positives = 164/343 (47%), Gaps = 3/343 (0%)
Frame = -2
Query: 3 IKAVGAYSAKQPLEPMDITRREPGPNDVKIEIAYCGVCHSDLHQVRSEWAGTVYPCVPGH 62
IK+ A A LE + E P DV++ + YCG+CHSDL + +EW + YP V GH
Sbjct: 15874 IKSYAAKEAGGELELYEYDAGELQPEDVEVRVDYCGICHSDLSMIDNEWGFSQYPLVAGH 15695
Query: 63 EIVGRVVAVGD--QVEKYAPGDLVGVGCIVDSCKHCEECEDGLENYCDHMTGTYNSPTPD 120
E++GRV A+G Q + G VG+G SC HC+ C G + C PT
Sbjct: 15694 EVIGRVAALGSAAQDKGLKVGQRVGIGWTARSCGHCDACISGNQINCQEGA----VPTI- 15530
Query: 121 EPGHTLGGYSQQIVVHERYVLRIRHPQE-QLAAVAPLLCAGITTYSPLRHWQAXXXXXXX 179
GG+++++ ++V+ + P+ +A+ PLLC GIT + PL
Sbjct: 15529 ---LNRGGFAEKLRAGWQWVIPL--PENIDMASAGPLLCGGITVFKPLLMHHITATSRVG 15365
Query: 180 XXXXXXXXXXXXXLAHAMGAHVVAFTTSEAKREAAKALGADEVVNSRNADEMAAHLKSFD 239
L HAMG V AF+++ +K + A+GA+ VVNSR+ + + A FD
Sbjct: 15364 VIGIGGLGHIAIKLLHAMGCEVTAFSSNPSKEQEVLAMGANNVVNSRDPEALKALAGQFD 15185
Query: 240 FILNTVAAPHNLDDFTTLLKRDGTMTLVGAPATPHKSPEVFNLIMKRRAIAGSMIGGIPE 299
I+NTV + + L G VGA P P F LI R+I+GS G E
Sbjct: 15184 LIINTVNVDLDWQPYFEALTYGGNFHTVGAVLKPLPVP-AFTLIAGDRSISGSATGTPYE 15008
Query: 300 TQEMLDFCAEHGIVADIEMIRADQINEAYERMLRGDVKYRFVI 342
++++ F + E+ QINEA + + G +YR V+
Sbjct: 15007 LRKLMKFAGRSKVAPTTELFAMSQINEAIQHVRDGKARYRVVL 14879
К упражнению 2, таблице 2
>AE012096 AE008922 |AE012096| Xanthomonas campestris pv. campestris
str. ATCC 33913, section 4 of 460 of the complete
genome.
Length = 12092
Score = 417 bits (1073), Expect = e-117
Identities = 214/347 (61%), Positives = 243/347 (70%), Gaps = 1/347 (0%)
Frame = +2
Query: 2 KIKAVGAYSAKQPLEPMDITRREPGPNDVKIEIAYCGVCHSDLHQVRSEWAGTVYPCVPG 61
K A A +A QPL P RR PGP+DV+I+IAYCGVCHSDLH R+EW TVYP VPG
Sbjct: 3302 KAHAYAAQTADQPLAPFVFERRAPGPDDVQIDIAYCGVCHSDLHTARNEWHNTVYPSVPG 3481
Query: 62 HEIVGRVVAVGDQVEKYAPGDLVGVGCIVDSCKHCEECEDGLENYCDH-MTGTYNSPTPD 120
HEIVGRV AVG V + GDL GVGC+VDSC+ C C++G E YC+ TGTYN P
Sbjct: 3482 HEIVGRVTAVGSAVTNFKVGDLAGVGCMVDSCRSCASCQEGEEQYCEQGFTGTYNGPMFG 3661
Query: 121 EPGHTLGGYSQQIVVHERYVLRIRHPQEQLAAVAPLLCAGITTYSPLRHWQAXXXXXXXX 180
+T GGYS IVV ++YVL I H + LAAVAPLLCAGITTYSPL HW+
Sbjct: 3662 GGENTYGGYSDHIVVDQKYVLHISH-SDNLAAVAPLLCAGITTYSPLAHWKVGPGQKVGV 3838
Query: 181 XXXXXXXXXXXXLAHAMGAHVVAFTTSEAKREAAKALGADEVVNSRNADEMAAHLKSFDF 240
+A AMGA VV FTTSE+KR A LGA EVV S++ +MAA + DF
Sbjct: 3839 VGLGGLGHMAVKIAKAMGATVVLFTTSESKRADALRLGASEVVISKDEAQMAAQYNTLDF 4018
Query: 241 ILNTVAAPHNLDDFTTLLKRDGTMTLVGAPATPHKSPEVFNLIMKRRAIAGSMIGGIPET 300
ILNTVAAPHNLD F LKRDG M LVG P H SP VFNL+MKRR +AGS+IGGI +T
Sbjct: 4019 ILNTVAAPHNLDPFLNALKRDGAMVLVGVPEHSHPSPAVFNLVMKRRTLAGSLIGGIRQT 4198
Query: 301 QEMLDFCAEHGIVADIEMIRADQINEAYERMLRGDVKYRFVIDNRTL 347
QEMLDFCA+H IV+DIE IRADQINEAYERML+GDVKYRFVID TL
Sbjct: 4199 QEMLDFCAKHNIVSDIETIRADQINEAYERMLKGDVKYRFVIDMDTL 4339
>AE008910 AE006468 |AE008910| Salmonella typhimurium LT2, section 214 of
220 of the complete genome.
Length = 20648
Score = 171 bits (433), Expect = 3e-43
Identities = 110/343 (32%), Positives = 164/343 (47%), Gaps = 3/343 (0%)
Frame = -2
Query: 3 IKAVGAYSAKQPLEPMDITRREPGPNDVKIEIAYCGVCHSDLHQVRSEWAGTVYPCVPGH 62
IK+ A A LE + E P DV++ + YCG+CHSDL + +EW + YP V GH
Sbjct: 15874 IKSYAAKEAGGELELYEYDAGELQPEDVEVRVDYCGICHSDLSMIDNEWGFSQYPLVAGH 15695
Query: 63 EIVGRVVAVGD--QVEKYAPGDLVGVGCIVDSCKHCEECEDGLENYCDHMTGTYNSPTPD 120
E++GRV A+G Q + G VG+G SC HC+ C G + C PT
Sbjct: 15694 EVIGRVAALGSAAQDKGLKVGQRVGIGWTARSCGHCDACISGNQINCQEGA----VPTI- 15530
Query: 121 EPGHTLGGYSQQIVVHERYVLRIRHPQE-QLAAVAPLLCAGITTYSPLRHWQAXXXXXXX 179
GG+++++ ++V+ + P+ +A+ PLLC GIT + PL
Sbjct: 15529 ---LNRGGFAEKLRAGWQWVIPL--PENIDMASAGPLLCGGITVFKPLLMHHITATSRVG 15365
Query: 180 XXXXXXXXXXXXXLAHAMGAHVVAFTTSEAKREAAKALGADEVVNSRNADEMAAHLKSFD 239
L HAMG V AF+++ +K + A+GA+ VVNSR+ + + A FD
Sbjct: 15364 VIGIGGLGHIAIKLLHAMGCEVTAFSSNPSKEQEVLAMGANNVVNSRDPEALKALAGQFD 15185
Query: 240 FILNTVAAPHNLDDFTTLLKRDGTMTLVGAPATPHKSPEVFNLIMKRRAIAGSMIGGIPE 299
I+NTV + + L G VGA P P F LI R+I+GS G E
Sbjct: 15184 LIINTVNVDLDWQPYFEALTYGGNFHTVGAVLKPLPVP-AFTLIAGDRSISGSATGTPYE 15008
Query: 300 TQEMLDFCAEHGIVADIEMIRADQINEAYERMLRGDVKYRFVI 342
++++ F + E+ QINEA + + G +YR V+
Sbjct: 15007 LRKLMKFAGRSKVAPTTELFAMSQINEAIQHVRDGKARYRVVL 14879